分析大会概要

新型コロナウィルスに関するデータを用いて、集計データと個票データの扱いを実際の可視化を通して学びます。分析に利用する環境・ツールは限定しません。

  • 表計算ソフト(Excelなど)/ BIツール(Microsoft PowerBIなど)
  • R(Google Colab/Rcmdr/RStduio)/ Python など

集計データを扱う

厚生労働省オープンデータを用いて、日頃、ニュースなどで目にするグラフを作成します。

個票データを扱う

Covid19 Japanのデータを用いて、属性データを利用した集計データの作成・可視化します。

集計データを扱う

厚生労働省オープンデータ の陽性者数データを用いて

  • 累計値(累積値)の算出
  • 前日差(前日比)の算出
  • 移動平均の算出
  • 算出データを用いた可視化

を行います。また、その他のデータを組み合わせて、傾向などを把握するための可視化などにも挑戦してください。

個票データを扱う

Covid19 Japan のデータを用いることで、集計済みのデータでは分からない属性を利用し、例えば、都道府県ごとの

  • 集計値の算出
  • 累計値(累積値)の算出
  • 前日差(前日比)の算出
  • 移動平均の算出
  • 算出データを用いた可視化

を行います。属性は都道府県に限定しませんので、任意の属性を利用してみてください。なお、分析大会前日までのデータをCSV形式ファイルとして用意する予定です。

分析データ概要

集計データ(厚生労働省オープンデータ)

日本国の公式データで、国内事例(チャーター便、空港検疫などを除く)のみ、各報告日時点の集計値です。基本的に前日までのデータとなります。

集計データ(厚生労働省オープンデータ)

厚生労働省のデータは単日であったり累計(累積)であったりしています。

データ 特記
陽性者数 単日
PCR検査実施人数 当日と前日の累積人数の差を当日の実施人数として計上
入院治療等を要する者の数
退院又は治療解除となった者の数
死亡者数
PCR検査の実施件数 暫定値であり後日変更される可能性あり
重症者数

個票データ(Covid19 Japan)

Exploratory EDA Salonなどで紹介されている有志によるJSON形式の個票データ。全て英語表記。CSV形式に変換したファイルを提供予定。

個票データ(Covid19 Japan)

個票データの変量は多岐に渡りますが、集計に使える変量は概ね以下の通りです。

列名(変量名) 内容 備考
dateAnnounced 発表日 陽性判定日とは異なる場合あり
ageBracket 年代 非公表の場合あり
gender 性別 同上
detectedPrefecture 報告主体(都道府県) 空港検疫なども含む
confirmedPatient 確認済みフラグ TRUEのみを集計対象とする
knownCluster クラスタに関する情報 クラスタ発生場所などの名称

実施方法など

実施スケジュール

分析大会は1月と2月の二回に渡り実施します。参加しやすいように以下のように分けます。

  • 集計データを扱う(1月)
    • 概要説明/実習/成果発表
  • 個票データを扱う(2月)
    • 概要説明/実習/成果発表

実習・発表はチーム単位

相談しながら進められるように利用するツールや環境を元にチーム分けを行います。Zoomのブレイクアウトセッション機能を利用してチーム単位のブレイさクアウトルームで実習を行います。
各チームには「ファシリテーター(支援者)」を配置しますが、意思決定は基本的にメンバー間で行ってください。

ポイント

今回の分析大会は成果を競い合う場ではなく、集計データと個票データの扱いを実際の分析を通して学ぶ場と考えています。したがいまして、発表に関しては自分たちで考えた最終結果に至らずとも

  • 苦労した点
  • 分からなかった点
  • 気づいた点 さ などを発表してください。
     
    なお、実習内容に関しては各自の工夫でアレンジなどを行うことを制限するものではありません。

Enjoy!